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(57) Abstract: The invention relates to a method for differentiated digital voice 
and music processing, noise filtering and the creation of special effects. The in- 
ventive method can be used to make the most of digital audio technologies, by 
performing a pre-encoding audio signal analysis, assuming that any sound sig- 
nal during one frame interval is the sum of sines having a fixed amplitude and a 
frequency which is linearly modulated as a function of time, said sum being tem- 
porally modulated by the signal envelope and the noise being added to the signal 
prior to the sum. 

(57) Abrege : Le proc6d£ pour le traitement numerique diff6rencie* de la voix et 
de la musique, le filtrage du bruit, et la creation d'effets speeiaux selon l'invention, 
permet de tirer un meilleur parti des technologies audionumeriques en effectuant 
prSalablement au codage, une analyse du signal audio en considerant que tout si- 
gnal sonore dans rintervalle d'une trame est la somme de sinus d'amplitude fixe 
et dont la frequence est modulee linSairement en fonction du temps, cette somme 
e"tant modulee temporellement par l'enveloppe du signal, le bruit 6tant rajoute" a ce 
signal pnSalablement a ladite somme. 
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5 PROCEDE POUR LE TRAITEMENT NUMERIOUE DIFFERENCES DE LA 
VOIX ET DE LA MUSIQUE* LE FILTRAGE DU BRUIT, L A CREATION 
D'EFFETS SPECIAUX ET DISPOSITIF POUR LA MISE EN (EUVRE 
DUDIT PROCEDE . 

10 La pr6sente invention concerne un traitement num6rique diff6renci6 de la voix 
et de la musique, le filtrage du bruit, la creation d'effets sp6ciaux ainsi qu'un 
dispositif pour la mise en oeuvre dudit proc6d6. 

Elle a plus particulierement pour objet de transformer la voix d'une fa?on 
15 realiste ou originale et, d'une maniere plus generate, de traiter en temps reel la 
voix, la musique, le bruit ambiant et d'enregistrer les resultats obtenus sur un 
support informatique. 

Elle s'applique notamment, mais non exclusivement, au grand public et aux 
20 professionnels du son qui souhaitent transformer la voix pour des applications 
ludiques, traiter difKremment la voix et la musique, cr6er des effets speciaux, 
reduire le bruit ambiant, et enregistrer, sous forme num6rique compressee, les 
resultats obtenus. 

25 D'une fa^on g6nerale, on sait que le signal vocal est compos6 d'un melange de 
signaux transitoires tr^s complexes (bruits) et de parties de signal quasi- 
p6riodiques (sons harmoniques). Les bruits peuvent etre de petites explosions : 
P, B, T, D, K, GU ; des bruits diffiis doux : F, V, J, Z ou intenses CH, S ; 
quant aux sons harmoniques, leur spectre varie avec le type de voyelle et avec 

30 lelocuteur. 
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Les rapports d'intensite entre les bruits et les voyelles changent selon qu'il 
s'agit d'une voix conversationnelle, d'une voix parl6e type conference, d'une 
voix forte criee ou d'une voix chantee. La voix forte et la voix change 
favorisent les sons vocaliques au detriment des bruits. 

5 

Le signal vocal transmet simultanement deux types de messages : un message 
s6mantique convoy6 par la parole, expression verbale de la pensee, et un 
message esthdtique perceptible au travers des qualit6s esth&iques de la voix 
(timbre, intonation, debit, etc.). 

10 

Le contenu s&nantique de la parole, support d'une bonne intelligibility est 
pratiquement ind6pendant des qualit6s de la voix ; il est v6hicule par les 
formes acoustiques temporelles ; une voix chuchotee n'est constituee que de 
bruits d'ecoulement ; une voix « intime » ou de proximite est constituee d'un 
15 melange de sons harmoniques dans les frequences graves et de bruits 
d'6coulement dans Paigu ; la voix d'un conferencier ou d'un chanteur possede 
un spectre vocalique harmonique riche et intense. 

Quant aux instruments de musique, ils sont caract6ris6s par leur tessiture, 
20 c'est-a-dire l'etendue en frequence de toutes les notes qu'ils peuvent 6mettre. 
N6anmoins tr£s peu d' instruments possedent un « son harmonique », c'est-a- 
dire un fundamental intense accompagn6 d'harmoniques dont l'intensite 
d6croit avec le rang. 

25 D' autre part, la tessiture musicale et le contenu spectral ne sont pas 
directement li6s ; certains instruments ont les maxima d'energie inclus dans la 
tessiture ; d'autres pr6sentent une zone maximale d'6nergie bien circonscrite, 
situ6e k la limite aigue de la tessiture et au-deli; d'autres enfin ont des 
maxima d'energie tr6s 6tal6s qui d6bordent largement la limite aigue de la 

30 tessiture. 
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Par aiUeurs, on sait que le traitement analogique de ces signaux complexes, 
par exemple leur amplification, provoque, d'une fa9on incontournable, une 
degradation croissante au fur et a mesure dudit traitement et cela d'une 
maniere irreversible. 

5 

L'originalite des technologies numeriques est d'introduire un determinisme 
(c'est-&-dire une connaissance a priori) le plus important possible au niveau 
des signaux trait6s de maniere a realiser des traitements particuliers qui 
r6sideront sous forme de calculs. 

10 

Ainsi, si Ton op£re une transformation du signal representatif d'un son, k 
Porigine sous sa forme naturelle de vibrations, en un signal numerique muni 
des propri6t6s 6voquees precedemment, ce signal sera traite sans subir de 
degradation telles que bruit de fond, distorsion et limitation de bande 
15 passante ; de plus, il pourra etre traite afin de cr6er des effets sp6ciaux tels que 
la transformation de la voix, la suppression du bruit ambiant, la modification 
du souffle de la voix, la differentiation de la voix et de la musique. 

Bien entendu, la technologie audionumerique comprend les trois etapes 
20 principales : 

• la conversion du signal analogique en un signal num6rique, 

• les traitements souhaites transposes en equations k resoudre, 

• la conversion du signal num6rique en signal analogique puisque le 
dernier maillon de la chalne genfere des vibrations acoustiques. 

25 

D'ime maniere g6n6rale, on sait que les dispositifs de traitement du son, 
designes sous le terme de vocodeur, comportent les quatre fonctions 
suivantes : 

• P analyse, 
30 • lecodeur, 

• le d£codeur, 
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• la synthese. 

Par ailleurs, les procedes de r6duction de d6bit sont employes essentiellement 
pour le stockage num6rique (dans le but de diminu er le volume binaire) et 
5 pour la transmission (dans le but de diminuer le d6bit n6cessaire). Ces 
proced6s comprennent un traitement pr6alable au stockage ou k la 
transmission (codage) et un traitement a la restitution (decodage). 

Parmi les proc6d6s de reduction de d6bit, ceux utilisant les m6thodes 
10 perceptuelles avec pertes d'information sont les plus employes et notamment 
le proc6de MPEG Audio. 

Ce procede repose sur Feffet de masque de Taudition humaine, c'est-a-dire la 
disparition des sons faibles en presence des sons forts, equivalent a un 
15 d6placement du seuil d' audition provoqu6 par le son le plus fort et fonction de 
Tecart de frequence et de niveau entre les deux sons. 

Ainsi, le nombre de bits par 6chantillon est d6fini en fonction de l'effet de 
masque 6tant donn6 que les sons faibles et le bruit de quantification sont 
20 inaudibles. Afin de tirer le meilleur profit de cet effet de masque, le spectre 
audio est divis6 en un certain nombre de sous-bandes, permettant ainsi de 
pr6ciser le niveau de masque dans chacune des sous-bandes et de realiser xme 
allocation binaire pour chacune d' entre elles. 

25 Le proc6d6 MPEG audio consiste ainsi a : 

• num&iser en 16 bits avec un 6chantiUonnage k 48 kHz, 

• d6duire la courbe de masque entre 20 Hz et 20 kHz, 

• diviser le signal en 32 sous bandes, 

• 6valuer le niveau maximal atteint dans chaque sous bande et durant 
30 24 ms, 

• 6valuer le niveau de bruit de quantification juste inaudible, 
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• allouer le nombre de bits pour le codage, 

• g6nerer le nombre de bits dans la sons bande, 

• encapsuler ces donn6es en pe trame de donn6es qui se r6pete 
chaque 24 ms. 

5 

Cette technique consiste a transmettre un debit binaire variable selon la 
composition instantan6e du son. 

N6anmoins, ce proc6d6 est plutot adapte au traitement de la musique et non au 
10 signal vocal ; il ne permet pas de detecter la presence de la voix ou de la 
musique, de separer le signal vocal ou musical et le bruit, de modifier la voix 
en temps r6el pour synth6tiser une voix differente mais r6aliste, de synthetiser 
du souffle (bruit) pour creer des effets speciaux, de coder un signal vocal 
comportant une seule voix, de reduire le bruit ambiant. 

15 

^'invention a done plus particulierement pour but de supprimer ces 
inconv&iients. 

Elle propose, k cet effet, un proc6d6 permettant de tirer xm meilleur parti des 
20 technologies audionum&iques en efiFectuant pr6alablement au codage, une 
analyse du signal audio en consid6rant que tout signal sonore dans Tintervalle 
d'une trame est la somme de sinus d' amplitude fixe et dont la frequence est 
modul6e lineairement en fonction du temps, cette somme etant modulee 
temporellement par l'enveloppe du signal, le bruit etant rajout6 k ce signal 
25 pr6alablement k ladite somme. 

Selon l 5 invention, ce proced6 de transformation de la voix* de la musique et du 
bruit ambiant, fait essentiellement intervenir : " 

30 - durant la phase d'analyse : 

• le calcul de l'enveloppe du signal, 
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• le calcul du « pitch » (p6riode du fondamental du signal de voix) et 
de sa variation, 

• T application an signal temporel de la variation inverse du «pitch» 
par interpolation lineaire, 

5 • la transformee rapide de Fourrier (TRF) sur le signal pr6trait6, 

• T extraction des composantes fr6quentielles et leurs amplitudes, 

• le calcul du «pitch» et sa validation dans le domaine fr6quentiel, 

• P elimination 6ventuelle du bruit ambiant par filtrage s61ectif avant 
codage, 

10 

durant la phase de synthese : 

• la sommation des sinus dont P amplitude des composantes 
frequeiitielles varie en fonction de Fenveloppe du signal et dont les 
frequences varient lin6airement, 

15 • le calcul des phases en fonction de la valeur des frequences et des 

valeurs des phases et des frequences appartenant a la trame 
pr6c6dente, 

• la superposition du bruit, 

• F application de F enveloppe. 

20 

Un mode d' execution de Finvention sera decrit ci-apres, a titre d'exemple non 
limitatif, avec reference aux dessins annexes, dans lesquels : 

La figure 1 est un organigramme simplify du proced6 selon 
25 Finvention ; 

La figure 2 est un organigramme de Fetape d' analyse ; 



30 



La figure 3 est un organigramme de F6tape de synthese ; 
La figure 4 est un organigramme de F6tape de codage ; et 
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La figure 5 est un schema synoptique d'un dispositif selon rinvention. 

Dans cet exemple, le precede de traitement nunterique differencie de la voix et 
5 de la musique selon l'invention, represent^ selon la figure 1, comprend les 
etapes suivantes : 

• analyse du signal vocal (bloc Al), 

• codage des parametres (bloc A2), 

• sauvegarde des parametres (bloc B), 
10 • lecture des parantetres (bloc B'), 

• decodage des param&tres (bloc CI), 

• effets speciaux (bloc C2), 

• synthese (bloc C3). 



15 Par ailleurs, V analyse du signal vocal et le codage des parametres constituent 
les deux fonctionnalites de Fanalyseur (bloc A) ; de meme, le d6codage des 
parametres, les effets speciaux et la synthese constituent les fonctionnalites du 
synth6tiseur (bloc C). 

Ces diff&rentes fonctionnalites seront decrites ci-apres, notamment en ce qui 
20 concerne les differentes etapes constitutives des precedes d' analyse et de 
synthese. 

D'une maniere g&terale, le proc6d6 de traitement nunterique differencie de la 
voix et de la musique comprend essentiellement quatre configurations de 
traitement : 

25 • la premiere configuration (trajet I) comprenant l'analyse, suivie du 

codage des parametres, suivi de la sauvegarde et de la lecture des 
parametres, suivie du decodage des parametres, suivi des effets 
sp6ciaux, suivis de la synthase, 
• la seconde configuration (trajet II) comprenant 1' analyse, suivie du 

30 codage des parametres, suivi du d6codage des parametres, suivi des 

effets sp6ciaux, suivis de la synthase, 
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• la troisieme configuration (trajet m) comprenant F analyse, suivie 
des effets sp6ciaux, suivis de la synthase, 

• la quatrifeme configuration (trajet IV) comprenant le filtre de bruit 
ou la generation d' effets speciaux k partir de l'analyse, sans passer 

5 par la synthese. 



10 



Ces diff&rentes possibilites sont ofifertes k ^appreciation de Tutilisateur du 
dispositif mettant en ceuvre le susdit proced6, lequel dispositif sera decrit 
ulterieurement. 

Dans cet exemple, la phase d' analyse du signal audio (bloc Al), representee 
selon la figure 2, comprend les etapes suivantes : 

mise en forme du signal d' entree (bloc 1) 9 
calcul de Penveloppe temporelle (bloc 2\ 
detection d' interpolation temporelle (bloc 3), 
detection du signal audible (bloc 4), 
calcul de Tinteipolation temporelle (bloc 5), 
calcul de la dynamique du signal (bloc 6), 

detection de trame inaudible apres une trame d'energie plus eievee 
(bloc 7), 

traitement d'impulsion (bloc 8), 
repetition de Fimpulsion (bloc 9), 

. calcul de la transformee rapide de Fourrier (TRF) sur impulsion 
r6p6t6e (bloc 10), 

calcul des parametres du signal servant au pretraitement avant la 
TRF (bloc 11), 

pretraitement du signal temporel (bloc 12), 
calcul de la TRF sux signal traite (bloc 13), 
calcul du rapport signal k bruit (bloc 14), 
test de la variation doppler du «pitch» (bloc 15), 
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• calcul de la TRF sur signal non traite (bloc 16), 

• calcul du rapport signal & bruit (bloc 17), 

• comparaison des rapports signal h bruit avec et sans pretraitement 
(bloc 18), 

5 • restitution du resultat de la TRF avec pr6traitement (bloc 19), 

• calcul des frequences et modules (amplitudes des composantes 
frequentielles (bloc 20), 

• decision du type de signal (bloc 21), 

• test du 50 ou 60 Hz (bloc 22), 

10 • calcul de la dynamique des modules dans le domaine fr6quentiel 

(bloc 23), 

• suppression de Finterpolation sur les donn6es frequentielles (bloc 
24), 

• suppression du signal inaudible (bloc 25), 
15 • calcul et validation du «pitch» (bloc 26), 

• d6cision si filtrage de bruit ou effets speciaux, ou continuation de 
P analyse (bloc 27), 

• attenuation eventuelle du bruit ambiant (bloc 28), 

• fin du traitement de la trame (bloc 29). 

20 

L' exploitation de la transformee rapide de Fourrier (TRF) pour de la voix n'est 
pas envisageable etant donn6 la variability du signal frequentiel ; en effet la 
variation des frequences cr£e un Statement du r6sultat de ladite transform^ 
rapide de Fourrier (TRF) ; P elimination de cet 6talement est rendu possible 
25 gr&ce au calcul de la variation du « pitch » et k V application de la variation 
inverse dudit « pitch » sur le signal temporeL 

Ainsi, P analyse du signal vocal est effectu6e essentiellement en quatre etapes : 

• calcul de Penveloppe du signal (bloc 2), 

30 • calcul du «pitch» et de sa variation (bloc 12), 
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• application au signal temporal de la variation inverse du «pitch» 
(bloc 12), 

• transfonnee rapide de Fourrier (TRF) sur le signal pr6trait6 (bloc 
13), 

5 • elimination eventuelle du bruit ambiant avant codage (blocs 23 a 

28). 

Par ailleurs, quatre seuils (blocs 4, 7, 8, 22) pennettent de detecter 
respectivement la pr6sence de signal inaudible, la presence de trame inaudible, 
10 la presence d'une impulsion, la presence de signal perturbateur secteur (50 Hz 
ou 60 Hz). 

D 9 autre part, un cinqui&me seuil (bloc 15) permet d'effectuer la transfonnee 
rapide de Fourrier (TRF) sur le signal non traite en fonction des 
caracteristiques du «pitch» et de sa variation. 
15 Un sixieme seuil (bloc 18) permet de restituer le resultat de la transfonnee 
rapide de Fourrier (TRF) avec pretraitement en fonction du rapport signal a 
bruit. 

Enfin, une decision est prise (bloc 27) si le filtrage du bruit ou les effets 
speciaux sont effectues ; dans le cas contraire, on continue Fanalyse (fteche 
20 IV). 

Deux trames sont exploit6es dans le precede d' analyse du signal audio, une 
trame dite « courante », de p6riodicit6 fixe, contenant un certain nombre 
d'6chantillons correspondant au signal vocal, et une trame dite « d' analyse », 
25 dont le nombre d'6chantillons est Equivalent k celui de la trame courante ou le 
double, et pouvant etre d6calee, en fonction de Tinterpolation temporelle, par 
rapport k la susdite trame courante. 

La mise en forme du signal d'entr6e (bloc 1) consiste a effectuer un filtrage 
30 passe haut afin d'am61iorer le codage futur des amplitudes fr6quentielles en 
augmentant leur dynamique ; ledit filtrage passe haut augmente la dynamique 
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d'amplitude fi*6quentielle en evitant qu'une frequence basse audible n'occupe 
toute la dynamique et fasse disparaitre des frequences de faible amplitude 
mais nSanmoins audibles. Le signal filtr6 est ensuite dirige vers le bloc 2 pom- 
la detennination de P enveloppe temporelle. 

5 

Le calcul de P enveloppe temporelle (bloc 2) permet de d6finir : 

- le type de signal, s'il s'agit d'une impulsion avec ou sans signal de fond 
(bruit ambiant ou musique), 

- la position de la trame d' analyse de 1' enveloppe du signal par rapport a la 
10 trame courante, 

- Penergie du signal temporel. 

II est effectue par une recherche des maxima du signal, consid6res comme la 
partie du «pitch» la plus elev6e en valeur absolue. 
15 On calcule ensuite le decalage temporel a appUquer k la trame d' analyse en 
recherchant d'une part le maximum de P enveloppe dans ladite trame puis 
d' autre part deux indices correspondant aux valeurs de P enveloppe inf&rieures 
d'un certain pourcentage a la valeur du maximum. 

Si dans une trame d' analyse on trouve localement un ecart entre deux 
20 6chantillons superieur k un pourcentage de la dynamique maximale de la 
trame et ce durant une dur6e limit6e, on declare qu'une impulsion breve est 
contenue dans la trame en for?ant les indices de decalage temporels aux 
valeurs entourant Pimpulsion additionnelle* 

25 La detection d'interpolation temporelle (bloc 3) permet de corriger les deux 
indices de decalage de la trame d'analyse trouv6s dans le calcul pr6c6dent, et 
ce en prenant en compte le pass6. 

Un premier seuil (bloc 4) d6tecte ou non la presence d'xm signal audible en 
30 mesurant la valeur maximale de Penveloppe ; dans P affirmative, Panalyse de 
la trame est tennin6e ; dans le cas contraire, le traitement continu. 
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Un calcul est ensuite effectu6 (bloc 5) des parametres associ£s au d£calage 
temporel de la trame d' analyse en determinant le parametre d' interpolation des 
modules qui est egal au rapport de Fenveloppe maximale dans la trame 
5 courante a celle de la trame d6calee. 

La dynamique du signal est ensuite calcul6e (bloc 6) pour sa normalisation 
afin de diminuer le bruit de calcul ; le gain de normalisation du signal est 
calcuie k partir de F6chantillon le plus Sieve en valeur absolue dans la trame 
10 d' analyse. 

Un second seuil (bloc 7) detecte ou non la presence d'une trame inaudible par 
effet de masque provoque par les pr6cedentes trames ; dans F affirmative, 
F analyse est terminee ; dans le cas contraire, le traitement continue. 

15 

Un troisieme seuil (bloc 8) detecte ensuite ou non la presence d'une 
impulsion ; dans F affirmative, un traitement sp6cifique est effectu6 (blocs 9, 
10) ; dans le cas contraire, les calculs des parametres du signal (bloc 11) 
servant au pretraitement du signal temporel (bloc 12) seront effectues. 

20 

En presence d'une impulsion, la repetition de. F impulsion (bloc 9) est 
effectu6e en cr6ant un « pitch » artificiel, 6gal a la dur6e de' Fimpulsion, de 
manidre k 6viter le masquage des frequences utiles lors de la transformee 
rapide de Fourrier (TRF). 
25 La transform6e rapide de Fourrier (TRF) (bloc 10) est ensuite r6alis£e sur 
Fimpulsion repet6e en ne conservant que la valeur absolue du nombre 
complexe et non la phase ; le calcul des frequences et des modules des 
donnees fr6quentielles (bloc 20) est ensuite effectu6. 

30 En Fabsence d'impulsion, le calcul des parametres du signal (bloc 11) est 
effectu6, lesquels parametres concement : 
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- le calcul du « pitch » et de sa variation, 

- la definition du nombre d'echantillons dans la trame d' analyse. 

En fait, le calcul du « pitch » est effectue pr6alablement par une differentiation 

5 du signal de la trame d'analyse, suivi d'un filtrage passe bas des composantes 
de rang elev6, puis d'une Elevation au cube du resultat dudit filtrage ; la valeur 
du « pitch » est d6termin6e par le calcul de la distance minimale entre une 
portion de signal d'Snergie elev6e avec la suite du signal subs6quent, etant 
donn6 que la susdite distance minimale est la somme de la valeur absolue des 

10 diff6rences entre les 6chantillons du gabarit et les echantillons a correler ; 
ejisuite, la partie principale d'un « pitch » centree autour de une fois et demie 
la valeur du « pitch » est recherchee en d6but de trame d' analyse afin de 
calculer la distance de cette portion de « pitch » sur Pint6gralit6 de la trame 
d' analyse ; ainsi, les distances minimales definissent les positions des 

15 « pitch », le « pitch » 6tant la moyenne des «pitchs» d6tect6s ; puis la 
variation du « pitch » est calculee a l'aide d'une droite qui minimise Perreur 
quadratique moyenne des successions des « pitchs » d6tect6s ; le « pitch » 
estim6 en d6but et en fin de trame d' analyse en est deduit; si le « pitch » 
temporel en fin de trame est sup6rieur h celui en d6but de trame, la variation 

20 du « pitch » est 6gale au rapport du « pitch » estim6 de debut de trame k celui 
de fin de trame, diminuS de 1 ; inversement, si le « pitch » temporel en jpn de 
trame est inf&ieur a celui en d6but de trame, la variation du « pitch » est egal a 
1 diminu6 du rapport du « pitch » estime en fin de trame a celui en debut de 
trame. 

25 

La variation du « pitch », trouv6e et validee pr6c6demment, sera soustraite du 
signal temporel dans le bloc 12 de pr6traitement temporel, en n'utilisant que le 
premier ordre de ladite variation. 
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La soustraction de la variation du « pitch » consiste k echantillonner la trame 
d'analyse sur-6chantillonn6e avec un pas d'echantillonnage variant avec la 
valeur inverse de ladite variation du « pitch ». 

Le sur-6chantillonnage 5 dans un rapport deux, de la trame d' analyse est r6alis6 
5 en multipliant le r6sultat de la transformee rapide de Fovirrier (TFR) de la 
trame d' analyse par le facteur exp(-j*2*PI*k/(2*Ljxame), de maniere k 
ajouter un delai d'un demi 6chantillon au signal temporel servant au calcul de 
la transferase rapide de Fourrier ; la transformee rapide de Fourrier inverse 
est ensuite r6alis6e afin d'obtenir le signal temporel decal6 d'un demi 
10 echantillon. 

Une trame de longueur double est ainsi realisee en utilisant alternativement un 
echantillon de la trame originate avec un Echantillon de la trame d6calee d'un 
demi 6chantillon. 

15 Apres elimination de la variation du « pitch », ledit « pitch » semble identique 
sur toute la fenetre d'analyse, ce qui donnera un resultat de la transformee 
rapide de Fourrier (TRF) sans etalement de frequences ; la transformee rapide 
de Fourrier (TRF) pourra etre ensuite effectuee dans le bloc 13 afin de 
connaitre le domaine fr6quentiel de la trame d' analyse ; la m6thode utilis£e 

20 permet de calculer rapidement le module du nombre complexe au detriment de 
la phase du signal. 

Le calcul du rapport du signal k bruit est effectue sur la valeur absolue du 
rEsultat de la transformee rapide de Fourrier (TRF) ; le susdit rapport est en 

25 fait le rapport de la difference de T6nergie du signal et du bruit k la somme de 
T6nergie du signal et du bruit ; le numerateur du susdit rapport correspond au 
logarithme de T6cart entre deux pics d'&iergie, respectivement du signal et du 
bruit, le pic d'6nergie 6tant celui qui est soit sup6rieur aux quatre 6chantillons 
adjacents correspondant au signal harmonique, ou infSrieur aux quatre 

30 6chantillons adjacents correspondant au bruit ; le d6nominateur est la somme 
des logarithmes de tous les pics du signal et du bruit ; par ailleurs, le calcul du 



WO 2004/070705 PCT7FR2004/000184 

15 

rapport signal a bruit se fait par sous-bande, les sous-bandes les plus 61evees, 
en terme de niveau, sont moyennSes et donnent le rapport recherche. 

Le calcul du rapport de signal k bruit, defini comme etant le rapport signal 
5 moins le bruit k signal plus le bruit, effectu6 dans le bloc 14, permet de 
determiner si le signal analyse est un signal vois6 ou de la musique, cas d'un 
rapport 61ev6, ou du bruit, cas d'un rapport faible. 

Cette distinction est ensuite effectu6e dans le bloc 15 ; en fait, des tests sont 
effectu6s sur la variation doppler du « pitch » et sur la frequence du « pitch » ; 
si la variation du « pitch » est faible ou sa frequence elev6e, le traitement est 
immediatement suivi par le calcul des Sequences et des modules des donnees 
frequentielles de la transformee rapide de Founier (TRF) (bloc 20) ; dans le 
cas contraire, la transformee rapide de Founier (TRF) est effectuee sans 
pretraitement (bloc 16). 



10 



15 



Le calcul du rapport signal k bruit est ensuite effectu6 dans le bloc 17, de 
mani&re k transmettre au bloc 20 les resultats de la transformee rapide de 
Founier (TRF) sans pretraitement, cas d'une variation du « pitch » nulle, ou, 
20 dans le cas contraire k restituer les resultats de la transformee rapide de 
Founier (TRF) avec pretraitement (bloc 19). 

Cette distinction est effectuee dans le bloc 18, de la manidre suivante : 

- si le rapport signal k bruit sans pretraitement est superieur au rapport signal 
25 a bruit avec pretraitement, les resultats de la transformee rapide de Founier 

(TRF) sont transfer6s au bloc 20, 

- si le rapport signal k bruit sans pretraitement est inferieur au rapport signal 
k bruit avec traitement, la restitution des resultats de la transformee rapide 
de Founier (TRF) avec pretraitement etant effectuee dans le bloc 19, les 

30 resultats obtenus avec pretraitement sont ensuite transfers dans le bloc 20. 
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Ce test pennet de valider la variation du « pitch », qui pourrait etre non nulle 
pour de la musique, alors que celle-ci doit effectivement etre nulle. 

Le calcul des frequences et des modules des donn6es frequentielles de la 
5 transformee rapide de Fourrier (TRF) est effectue dans le bloc 20. 

La transformee rapide de Founier (TRF), prec6demment citee en reference 
aux blocs 10, 13, 16, est r6alis6e, h titre d'exemple, sur 256 6chantillons dans 
le cas d'une trame decal^e ou d'une impulsion, oil sur le double d'6chantillons 
dans le cas d'une trame centree sans impulsion. 
10 Une pondfration des echantillons situ6s aux extremites des pr6ievements, dite 
de HAMMING, est effectue dans le cas de la transformee rapide de Fourrier 
(TRF) sur n echantillons ; sur 2n echantillons, on utilise la fenetre de 
ponderation de HAMMING multipliee par la racine carree de la fenetre de 
HAMMING. 

15 A partir des valeurs absolues des donnees complexes de la transformee rapide 
de Fourrier (TRF), on calcule le rapport entre deux valeurs maximales 
adjacentes, chacune repr6sentant le produit de Pamplitude de la composante 
fr6quentielle par un sinus cardinal ; par approximations successives, on 
compare ce rapport entre les valeurs maximales, k des valeurs contenues dans 

20 des tableaux contenant ce meme rapport, pour N frequences (par exemple 32 
ou 64) r6parties uniformement sur xin demi 6chantillon de la transformee 
rapide de Fourrier (TRF). L'indice dudit tableau qui d6finit le rapport le plus 
proche de celui a comparer donne d'une part le module et d' autre part la 
frequence pour chaque maximum de la valeur absolue de la transform6e rapide 

25 de Fourrier (TRF). 



Par ailleurs, le calcul des frequences et des modules des donnees frequentielles 
de la transformee rapide de Fourrier (TRF), effectue dans le bloc 20, permet 
egalement de detecter un signal DTMF (multifrequence h double tonalite) en 
30 teiephonie. 
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II est k nbter que le rapport signal k bruit est le critere essentiel qui definit le 
type de signal. 

Afin de determiner F6nergie du bruit a g6nerer k la synthase 'et la pr6cision du 
5 codage, le signal extrait du bloc 20 est categorise en quatre types dans le bloc 
21, k savoir : 

- type 0 : signal vois6 ou musique. 

Le « pitch » et sa variation peuvent etre non nuls ; le bruit applique k la 
synthase sera de faible 6nergie ; le codage des param&tres sera effectu6 avec la 
1 0 precision maximale. 

- type 1 : signal non voise et 6ventuellement de la musique. 

Le « pitch » et sa variation sont nuls ; le bruit applique a la synthase sera de 
forte energie ; le codage des param&res sera effectue avec la precision 
minimale. 

15 - type 2 : signal voise ou musique. 

Le « pitch » et sa variation sont mils ; le bruit applique a la synthese sera de 
moyenne 6nergie ; le codage des parametres sera effectu6 avec une precision 
interm6diaire. 

- type 3 : ce type de signal est d6cid6 en fin d' analyse lorsque le signal k 
20 synth&iser est nul. 

Une detection de pr6sence ou de non presence de signal perturbateur k 50 Hz 
(60 Hz) est effectuee dans le bloc 22 ; le niveau du seuil de detection est 
fonction du niveau du signal rechercM de manure a 6viter de confondre la 
25 perturbation 61ectromagnetique (50, 60 Hz) et la fondamentale d'un instrument 
de musique. 

En presence du signal perturbateur recherch6, 1* analyse est termin6e afin de 
diminuer le d6bit binaire : fin du traitement de la trame r6f6renc6e par le bloc 
29. 

30 Dans le cas contraire, en l'absence de signal perturbateur, on continue 
Panalyse. 
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Un calcul de la dynamique des amplitudes des composantes frequentielles, ou 
modules, est effectu6 dans le bloc 23 ; la susdite dynamique frequentielle est 
utilis6e pour le codage aiosi que pour la suppression des signaux inaudibles 
5 effectu6e ulterieurement dans le bloc 25. 

Ainsi, le plan frequentiel est subdivis6 en plusieurs parties, chacune d'entre- 
elles poss^de plusieurs plages d' amplitude differenciees en fonction du type de 
signal detect^ au niveau du bloc 2 1 . 

10 

D' autre part, P interpolation temporelle et P interpolation frequentielle sont 
supprim6es au niveau du bloc 24 ; celles-ci avaient ete effectuees pour 
optimiser la qualite du signal. 

L'interpolation temporelle qui donne des modules plus eleves, sera retiree en 
1 5 multipliant chaque module par le parametre de normalisation calcuie au niveau 
dubloc 5. 

L' interpolation frequentielle depend de la variation du « pitch » ; celle-ci sera 
supprim6e en fonction du d6calage d'un certain nombre d'echantillons et du 
sens de la variation du « pitch ». 

20 

La suppression du signal inaudible est effectuee ensuite dans le bloc 25. En 
effet, certaines frequences sont inaudibles car masquees par d'autres signaux 
d' amplitude plus 61ev6es. 

T /Elimination de ces dites frequences inaudibles permettra de diminuer le 
25 debit et aussi d'ameiiorer le calcul du « pitch » grace a la suppression du bruit. 
Tout d'abord, on effectue une elimination des amplitudes situ6es en de?i de la 
limite inferieure de la plage d* amplitude, puis on eioigne les frequences dont 
Tintervalle est inferieure k une unite frequentielle, definie comme etant la 
frequence d'6chantillonnage par unite d'6chantillon. 
30 Ensuite, on eiimine les composantes inaudibles h Paide d'un test entre 
T amplitude de la composante frequentielle k tester et P amplitude des autres 
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composantes adjacentes multipli6e par un teraie attenuateur fonction de la 
difference entre leur frequence. 

Par ailleurs, on limite le nombre de composantes fr6quentielles k une valeur 
au-del& de laquelle la difference sur le r6sultat obtenu n'est pas perceptible. 

5 

Le calcul du « pitch » et la validation du « pitch » sont effectu6s au niveau du 
bloc 26 ; en effet le « pitch » calculi dans le bloc 1 1 sur le signal temporel a 
ete determine dans le domaine temporel en presence de bruit ; le calcul du 
« pitch » dans le domaine fitequentiel permettra d'ameliorer la precision du 

10 « pitch » et de detecter un « pitch » que le calcul sur le signal temporel, 
effectue dans le bloc 11, n'aurait pas determine a cause du bruit ambiant 
Par ailleurs, le calcul du « pitch » sur le signal fr6quentiel doit permettre de 
d6cider si celui-ci doit 6tre utilise au codage, sachant que Putilisation du 
« pitch » au codage pemiet de diminuer fortement le codage et de reridre la 

15 voix plus naturelle a la synthese ; il est par ailleurs utilise par le filtre de bruit. 
Etant donne que les frequences et les modules de la trame sont disponibles, le 
principe du calcul du « pitch » consiste a synthetiser le signal par une somme 
de cosinus ayant des phases k Torigine nulles ; ainsi la forme du signal 
original sera reconstitu6 sans les perturbations de Fenveloppe, des phases et de 

20 la variation du « pitch ». 

La valeur du « pitch » fitequentiel est definie par la valeur du « pitch » 
temporel laquelle est equivalente k la premiere valeur de synthese presentant 
un maximum sup&ieur au produit d 5 un coefficient par la somme des modules 
utilises pour la synthase locale (somme des cosinus desdits modules) ; ce 

25 coefficient est 6gal au rapport de T6nergie du signal, consid6r£ comme 
hannonique, k la somme de P6nergie du bruit et de P6nergie du signal ; le 
susdit coefficient est d'autant plus faible que le « pitch » a d6tecter est noy6 
dans le bruit ; k titre d'exemple, k im rapport signal k bruit de 0 decibel 
correspond un coefficient de 0,5. 
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L'information de validation du « pitch » frequentiel est obtenue a Faide du 
rapport de F6chantillon de synthase, k Fendroit du « pitch », k la somme des 
modules utilises pour la synthese locale ; ce rapport, synonyme d'energie du 
signal harmonique sur Fenergie totale du signal, est corrige en fonction du 

5 rapport approximate signal a bruit calcule dans le bloc 14 ; Finformation de 
validation du « pitch » d6pend du depassement du seuil de ce rapport, 
Afin d'6viter de valider un « pitch » sur du bruit ou de la musique, quand le 
seuil de detection du « pitch » est faible, un controle de F existence d'un 
« pitch » est effectue aux emplacements des multiples du « pitch » temporel 

10 dans la synthase locale ; ainsi le « pitch » n'est pas valide si le niveau de la 
synthase est trop faible pour etre un « pitch » aux susdits emplacements des 
multiples du « pitch » temporel. 

La synthese locale est calculee deux fois ; une premiere fois en n'utilisant que 
les frequences dont le module est elev6, afin de s'afifranchir du bruit pour le 
15 calcul du « pitch » ; une deuxteme fois avec la totalite des modules limit6s en 
valeur maximale, afin de calculer le rapport signal a bruit qui validera le 
« pitch » ; en effet la limitation des modules donne plus de poids aux 
frequences non harmoniques a module faible, afin de diminuer la probability 
de vahdation d'un « pitch » sur de la musique. 

20 

Dans le cas du filtrage du bruit, les valeurs desdits modules ne sont pas limites 
pour la deuxidme synthase locale, seul le nombre de frequences est limits en 
ne prenant en compte que celles qui ont un module significatif afin de limiter 
le bruit. 

25 

Un second proc6d6 de calcul du « pitch » consiste k selectioimer le « pitch » 
qui donne Fenergie maximale pour un pas d^chantillonnage de la synthase 
6gal au « pitch » recherch6 ; ce proc6d6 est utihse pour de la musique ou un 
milieu sonore comportant plusieurs voix. 
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Prealablement a la derniere 6tape consistant k attenuer le bruit, une decision 
sera prise par l'utilisateur s'il souhaite realiser le filtrage du bruit ou g6n6rer 
des effets sp6ciaux (bloc 27), k partir de V analyse, sans passer par la synthase. 
Dans le cas contraire, P analyse se terminera par le traitement suivant 

5 consistant k att&mer le bruit, dans le bloc 28, en diminuant les composantes 
fr6quentielles qui ne sont pas un multiple du « pitch » ; apres attenuation 
desdites composantes frequentielles, on effectuera a nouveau la suppression du 
signal inaudible, tel que decrit precedemment, au niveau du bloc 25. 
L'attenuation desdites composantes fr6quentielles est fonction du type de 

10 signal tel que d6finit pr6cedemment par le bloc 2 1 . 

Apr&s avoir effectue ladite attenuation du bruit, on peut consid6rer que le 
traitement de la trame est terming ; l'aboutissement de ladite phase d' analyse 
est reference par le bloc 29. 

15 

En reference a la figure 1 repr&entant un organigramme simplifie du procede 
selon Tinvention, dans cet exemple, la phase de synthase du signal audio (bloc 
C3), repr6sentee selon la figure 3, comprend les 6tapes suivantes : 

• mise en forme des modules (bloc 3 1), 
20 • reduction du bruit (bloc 32), 

• mise k niveau du signal (bloc 33), 

• saturation des modules (bloc 34), 

• modification des parametres d'impulsion en fonction de la vitesse 
de la synthase (bloc 35), 

25 • calcul des phases (bloc 36), 

• g6n6ration du souffle (bloc 37), 

• decision concernant la g6n6ration d'une impulsion (bloc 38), 

• synthese avec les donnees fr6quentielles de la trame courante (bloc 
39), 

30 • test concernant la trame pr6c6dente (bloc 40), 
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• synthase avec les donn6es frequentielles de la trame pr6c6dente 
(bloc 41), 

• application de Penveloppe sur le signal de synthase (bloc 42), 

• d6cision concernant Fajout d'une impulsion (bloc 43), 

5 • synthase avec les nouvelles donnees frequentielles (bloc 44), 

• connexion entre trames adjacentes (bloc 45), 

• transfert du resultat de synthese dans la trame d'echantillon (bloc 
46), 

• sauvegarde du bord de trame (bloc 47), 
10 • fin de la synthese (bloc 48). 

La synthase consiste a calculer les Schantillons du signal audio a partibr des 
parametres calcules par Fanalyse ; les phases et le bruit seront calculus 
artificiellement suivant le contexte. 

15 

La mise -en forme des modules (bloc 31) consiste k 61iminer F attenuation du 
filtre d'entr6e des 6chantillons de T analyse (bloc 1 du bloc Al) et k tenir 
compte du sens de la variation du»pitch» car la synthase est realisee 
temporellement par un increment de phase d'un sinus. 
20 Par ailleurs, F information de validation du « pitch » est supprim6e si F option 
de synthase de la musique est valid6e ; cette option am61iore le calcul de phase 
des fr6quences en 6vitant de synchroniser les phases des harmoniques entre 
elles en fonction du « pitch ». 

25 La reduction du bruit (bloc 32) est effectu6e si celle-ci n'a pas ete 
pr6alablement effectu6e durant Fanalyse (bloc 28 du bloc Al). 

La mise k niveau du signal (bloc 33) supprime la normalisation des modules 
regus de Fanalyse ; cette mise k niveau consiste k multiplier les modules par 
30 Finverse du gain de normalisation d6fini dans le calcul de la dynamique du 
signal (bloc 6 du bloc Al) et k multiplier lesdits modules par 4 afin d'61iminer 
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Peffet de la fenStre de HAMMING, et que seule la moiti6 du plan fr6quentiel 
est utilisee. 

La saturation des modules (bloc 34) est effectu6e si la somme des modules est 
* 5 superieure k la dynamique du signal des 6chantillons de sortie ; elle consiste k 
multiplier les modules par le rapport de la valeur maximale de la somme des 
modules k la somtne des modules, au cas ou ledit rapport est inf&rieur a 1 . 

L'impulsion est re-g6n6ree en r6alisant la somme de sinus dans la dur6e 
10 d'impulsion ; les param&res d'impulsion sont modifies (bloc 35) en fonction 
de la vitesse variable de synthase. 

Le calcul des phases des frequences est effectue ensuite (bloc 36) ; il a pour 
but de donner une continuite de phase entre les frequences des trames ou de 
15 re-synchroniser les phases entre elles ; elle rend par ailleurs la voix plus 
naturelle. 

La synchronisation des phases est r6alisee k chaque fois qu'un nouveau signal 
dans la trame courante semble s6pare dans le domaine temporel ou dans le 
domaine fr6quentiel de la trame prec6dente ; cette separation correspond : 
20 • au passage de signal bruit6 k un signal non bruits, 

• k un d6but de mot (ou son) dont Penveloppe en debut de trame est 
faible, 

• k une transition entre deux mots (ou son) sans variation de 
Tenveloppe, 

25 • k un debut de mot (ou son) qui a 6t6 d£fect£ dans la trame 

pr6cedente, mais dont la mont6e de Tenveloppe dans la trame 
courante est telle que la synchronisation doit etre refaite pour que les 
phases soient calcul£es en fonction d'un « pitch » de meilleure 
qualite. 
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La continuity de phase consiste a rechercher les frequences de la trame 
courante en debut de trame qui sont les plus proches des frequences en fin de 
trame de la trame pr6c6dente ; ensuite la phase de chaque frequence devient 
6gale k celle de la frequence prec&lente la plus proche, sachant que les 
5 frequences en d6but de trame courante sont calcul6es k partir de la valeur 
centrale de la frequence modiftee par la variation du « pitch ». 

En presence d'un « pitch », cas du signal voise, les phases des harmoniques 
seront synchronises sur celle du pitch en multipliant la phase du « pitch » par 
10 Tindice de Fharmonique du « pitch » ; quant & la continuity de phase, on 
calcule la phase du « pitch » en fin de trame en fonction de sa variation et de la 
phase a Forigine de la trame ; cette phase servira pour le debut de la trame 
suivante. 

15 Une seconde solution consiste a ne plus appliquer la variation du « pitch » sur 
le « pitch » pour connaltre la nouvelle phase ; il suffit de reprendre la phase de 
la fin de la trame pr6cedente du « pitch » ; par ailleurs, lors de la synthese, la 
variation du « pitch » est appliqu6e sur Finterpolation de la synthase r6alis6e 
sans variation du « pitch ». 

20 

La generation du souffle est ensuite effectuee (bloc 37). 

Selon F invention, on considere que tout signal sonore dans Fintervalle d'une 
trame est la somme de sinus d' amplitude fixe et dont la frequence est modul6e 
25 lin6airement en fonction du temps, cette somme 6tant modulee temporellement 
par Fenveloppe du signal, le bruit 6tant rajout6 k ce signal pr6alablement k 
ladite somme. 

Sans ce bruit, la voix est m6tallique car F61imination des modules faibles, 
effectu6e dans le bloc 25 du bloc A3, conceme essentiellement le souffle. 
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Par ailleurs, P estimation du rapport signal a bruit effectuee dans le bloc 14 du 
bloc A3, n'est pas exploitee ; on calcule en effet un bruit en fonction du type 
de signal, des modules et des frequences. 

Le principe du calcul du bruit repose sur un filtrage d'un bruit blanc par un 

5 filtre transversal dont les coefficients sont calculus par la somme des sinus des 
frequences du signal dont les amplitudes sont attenu6es en fonction des 
valeurs de leur frequence et de leur amplitude. Une fenetre de HAMMING est 
ensuite appliqu^e sur les coefficients pour diminuer les lobes secondares. 
Le bruit filtr6 est ensuite sauvegarde en deux parties distinctes. 

10 Une premiere partie permettra de faire le lien entre deux trames successives ; 
la connexion entre deux trames est realis6e par chevauchement de ces deux 
trames dont chacune est ponder6e lineairement et en sens inverse ; ledit 
chevauchement est effectuS lorsque le signal est sinusoidal ; il ne s* applique 
pas quand il s'agit de bruit non corr616 ; ainsi la partie sauvegardee du bruit 

15 filtrS est rajoutee sans ponderation sur la zone de chevauchement. 
La seconde partie est destinee au corps principal de la trame. 
Le lien entre deux trames doit d'une part permettre un passage fluide entre 
deux filtres de bruit de deux trames successives, et d' autre part de prolonger le 
bruit de la trame suivante au-del& de la partie de chevauchement des trames si 

20 un d6but de mot (ou son) est d&ecte. 

Ainsi, le passage fluide entre deux trames est realise par la somme du bruit 
blanc filtr6 par le filtre de la trame pr6c6dente pond6r6 par une pente 
descendante lin6aire, et le meme bruit blanc filtre par le filtre de bruit de la 
trame courante pond6re par la pente montante inverse de celle du filtre de la 

25 trame pr6c6dente. 

L'energie du bruit sera rajout6e k P6nergie de la somme des sinus, selon le 
proc6de propose. 

La g6n6ration d'une impulsion diflGere d'un signal sans impulsion ; en effet, 
30 dans le cas de la g6n6ration d'une impulsion, la somme des sinus n'est r6alis6e 
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que sur urie partie de la trame courante k laquelle est rajoutee la somme des 
sinus de la trame pr6c6dente. 

Cette distinction nScessite de faire le choix (bloc 38) entre les deux options : 
5 une impulsion doit elle 6tre gen&ree ou non ? ; dans le cas ou il n'y a pas de 
g6n6ration d'une impulsion , on effectue la synthase avec les nouvelles 
donnSes frequentielles (bloc 39) ; dans le cas contraire, il s'agit de savoir si la 
trame pr6c6dente n'etait pas une impulsion (bloc 40) ; dans ce cas on effectue 
la synthase avec les donnees fr6quentielles de la trame prScedente (bloc 41) 
10 qui va servir de fond a F impulsion (cas de la musique ou de bruit ambiant a 
r6p6ter) ; dans le cas contraire, la trame prec6dente etant une impulsion, on ne 
repete pas le signal de fond avec les paramStres de Timpulsion precedents 

La synthese avec les nouvelles donnees frequentielles (bloc 39) consiste k 
15 effectuer la somme des sinus des composantes frequentielles de la trame 
courante ; la variation de la longueur de la trame permet d' effectuer une 
synthese a vitesse variable ; neanmoins les valeurs des frequences en debut et 
en fin de trame doivent etre identiques, quelque soit la longueur de la trame, 
pour une vitesse donn6e de synthase. 
20 La phase associ6e au sinus, fonction de la frequence, sera calcul6e par 
.iteration ; en effet pour chaque iteration, on calcule le sinus multiple par le 
module ; le rSsultat est ensuite somm6 pour chaque 6chantillon smvant toutes 
les frequences du signal. 

25 Une autre methode de synthese consiste a realiser Tinverse de Tanalyse en 
recreant le domaine fr6quentiel a partir du sinus cardinal r6ahs6 avec le 
module, la frequence et la phase, et ensuite en realisant une transformee rapide 
de Fourier (TFR) inverse, suivie par le produit de Tinverse de la fen6tre de 
HAMMING pour obtenir le domaine temporel du signal. 

30 Dans le cas oii le « pitch » varie, Tinverse de Tanalyse est k nouveau effectu6 
en rajputant la variation du « pitch » k la trame temporelle sur-6chantillonn6e. 
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Dans le cas d'une impulsion, il suffit d'appliquer au signal temporel, une 
fenetre k 1 durant P impulsion, et k 0, en dehors de celle-ci. 

Dans le cas d'une impulsion k g6nerer, les phases k Porigine des donndes 

5 fr6quentielles sont maintenues a la valeur 0. 

Afin de realiser une connexion fluide entre les trames, le calcul de la somme 
des sinus est egalement effectu6 sur une portion pr6cedant la trame et sur une 
meme portion suivant la trame ; les parties aux deux bouts de la trame seront 
ensuite sommies avec celles des trames adjacentes par pond6ration lin6aire. 

10 Dans le cas d'une impulsion, la somme des sinus est effectu6e dans Pintervalle 
de temps de g6n6ration de Pimpulsion ; afin d'6viter la cr6ation d'impulsions 
parasites suite aux discontinuity dans le calcul de la somme des sinus, un 
certain nombre d'6chantillons situ6s au debut et a la fin de la sequence sont 
pond6res respectivement par une pente montante et une pente descendante. 

15 Quant au cas des frequences hannoniques du « pitch », les phases ont ete 
calculees pr^cedemment pour etre synchronisees, elles seront g6n6rees a partir 
de Pindice de Pharmonique correspondant 



La synthese par la somme des sinus avec les donnSes de la trame pr6c6dente 
20 (bloc 41) est effectuee lorsque la trame courante contient une impulsion k 
generer ; en effet, dans le cas de la musique ou de bruit, si la synthase n'est 
pas effectuee sur la trame prec6dente, servant de signal de fond, Pimpulsion 
sera g6n6r6e sur un silence, ce qui est pr6judiciable a une bonne quaUt6 du 
r6sultat obtenu ; par ailleurs la continuite de la trame pr6c6dente est inaudible, 
25 meme en pr6sence d'une progression du signal. 

L' application de Penveloppe sur le signal de synthase (bloc 42) est effectuee k 
partir des valeurs 6chantillonn6es de Penveloppe pr6cedemment d6termin6es 
(bloc 2 du bloc A3) ; par ailleurs la connexion entre deux trames successives 
30 est r6alis6e par la somme ponder6e, comme indiqu6 pr6c6demment ; cette 
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pond&ration par les courbes croissante et d6croissante n'est pas effectuee sur le 
bruit, car le bruit n'est pas juxtapose entre trame. 

Enfin, dans le cas de la synthase k vitesse variable, la longueur de la trame 
varie par pas afin d'etre homog&ne avec Pechantillonnage de Fenveloppe. 

5 

Le rajout d'une impulsion par la somme de sinus dans Pintervalle ou a 6t6 
d6tect6e Timpulsion, est effectue (bloc 44) en fonction du test r6alis6 ~ 
pr6cedemment (bloc 43). 

10 La pond6ration de juxtaposition entre deux trames est ensuite effectuee (bloc 
45) comme indiqu6 prec6demment. 

Le transfer! du r6sultat de synthese (bloc 46) sera ensuite effectue dans la 
trame de sortie d'echantillon afin que ledit resultat soit sauvegarde. 

15 

De meme, la sauvegarde du bord de trame (bloc 47) sera effectuee afin que 
ledit bord de trame puisse etre additional au debut de la trame suivante. 

L'aboutissement de ladite phase de synthase est r6ferencee par le bloc 48. 

20 

En reference k la figure 1 representant un organigramme simplifi6 du proc6d6 
selon Tinvention, dans cet exemple, la phase de codage des param&res (bloc 
A2), representee selon la figure 4, comprend les etapes suivantes : 

• codage du type de signal (bloc 51), 
25 • test sur le type de signal (bloc 52), 

• codage du type de compression (bloc 53), 

• codage de la valeur de normalisation du signal de trame (bloc 54), 

• test sur la presence d' impulsion (bloc 55), 

• codage des paramdtres d'impulsion (bloc 56), 
30 • codage de la variation du « pitch » (bloc 57), 

• limitation du nombre de frequences k coder (bloc 58), 
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• codage des valeurs d'echantillonnage de Penveloppe (bloc 59), 

• codage de la validation du « pitch » (bloc 60), 

• test de validation du « pitch » (bloc 61), 

• codage des harmoniques (bloc 62), 

5 • codage des frequences non harmoniques (bloc 63), 

• codage de la dynamique des modules (bloc 64), 

• codage du module le plus 61eve (bloc 65), 

• codage des modules (bloc 66), 

• codage de P attenuation (bloc 67), 

10 • suppression de la normalisation des modules (bloc 68), 

• codage des fractions frequentielles des frequences non harmoniques 
(bloc 69), 

• codage du nombre d' octets de codage (bloc 70), 

• fin de codage (bloc 71). 

15 

Le codage des parametres (bloc A2) calculus dans V analyse (bloc Al) dans le % 
proc6d6 selon Tinvention, consiste a limiter la quantite d' informations utiles 
afin de reproduire k la synthese (bloc C3) apr£s decodage (bloc CI) un 
Equivalent auditif au signal audio d'origine. 
20 Le codage etant de longueur variable, chaque trame codee a un nombre de bits 
d* information propre ; le signal audio etant variable, plus ou moins 
d' informations seront a coder. 

Les parametres de codage etant interdependants, un parametre code 
influencera le type de codage des parametres suivants. 

25 

Par ailleurs, le codage des parametres peut etre soit lineaire, le nombre de bits 
etant fonction du nombre de valeurs, soit de type HUFFMAN, le nombre de 
bits etant fonction statistique de la valeur a coder (plus la donnee est fr6quente, 
moins elle utilise de bits et reciproquement). 

30 
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Le type de signal, tel que d6fini lors de P analyse (bloc 21 du bloc Al), fournit 
rinformation de generation du bruit et la qualite du codage a utiliser ; le 
codage du type de signal est effectue en premier lieu (bloc 51). 

5 Un test est ensuite effectue (bloc 52) pennettant dans le cas du type 3 du 
signal, tel que defini dans le bloc 21 de Fanalyse (bloc Al), de ne pas 
effectuer de codage des parametres ; la synthese comportera des 6chantillons 
nuls. 

10 Le codage du type de compression (bloc 53) est utilise dans le cas ou 
Putilisateur souhaite agir sur le debit des donn6es de codage, au detriment de 
la quality; cette option peut etre avantageuse en mode telecommunication 
associe k un taux de compression 61eve. 

15 Le podage de la valeur de normalisation (bloc 54) du signal de la trame 
d' analyse est de type HUFFMAN. 

Un test sur la presence d'impulsion (bloc 55) est ensuite effectue, pennettant 
en cas de synthase d'une impulsion, de coder les parametres de ladite 
20 impulsion. 

En cas de presence d'une impulsion, le codage, suivant une loi lineaire, des 
parametres de ladite impulsion (bloc 56) sera effectue sur le debut et la fin de 
ladite impulsion dans la trame courante. 

25 

Quant au codage de la variation doppler du « pitch » (bloc 57), il sera effectue 
suivant une loi logarithmique, en tenant compte du signe de la dite variation ; 
ce codage ne sera pas effectue en presence d'une impulsion ou si le type de 
signal est non vois6. 
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Une limitation du nombre de frequences a coder (bloc 58) est ensuite effectu6e 
afin d'eviter qu'une frequence de valeur haute ne depasse la dynamique 
bornee par la frequence d'echantillonnage, 6tant donn6 que la variation 
doppler du « pitch » fait varier les frequences durant la synthese. 

5 

Le codage des valeurs d'echantillonnage de l'enveloppe (bloc 59) depend de 
la variation du signal, du type de compression, du type de signal, de la valeur 
de normalisation et de Feventuelle presence d' impulsion; ledit codage 
consiste k coder les variations et la valeur minimale desdites valeurs 
10 d'echantillonnage. 

La validation du « pitch » est ensuite cod6e (bloc 60), suivi d'un test de 
validation (bloc 61) n£cessitant, dans Paffirmative, de coder les frequences 
harmoniques (bloc 62) suivant leur indice par rapport a la frequence du 
15 « pitch ». Quant aux frequences non harmoniques, elles seront codees (bloc 
63) suivant leur partie entiere. 

Le codage des frequences harmoniques (bloc 62) consiste k effectuer un 
codage logarithmique du pitch, afin d'obtenir la meme precision relative pour 
20 chaque frequence harmonique ; le codage desdits indices des harmoniques est 
effectue en fonction de leur presence ou de leur absence par paquet de trois 
indices selon le codage d'HUFFMAN. 

Les frequences qui n'ont pas ete detectees comme 6tant harmoniques de la 
25 frequence du « pitch » seront codees separ6ment (bloc 63). 

Afin d'eviter qu'au moment du codage, une frequence non harmonique change 
de position par rapport k une frequence harmonique, on supprime la frequence 
non harmonique qui est trop proche de la frequence harmonique, sachant 
qu'elle a moins de poids au sens audible ; ainsi la suppression a lieu si la 
30 frequence non harmonique est superieure k la frequence harmonique et que la 
fraction de la frequence non harmonique due au codage de la partie entiere, 
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rend ladite frequence non harmonique inferieure k la frequence harmonique 
proche. 

Le codage des frequences non harmoniques (bloc 63) consiste a coder le 
nombre de frequences non harmoniques, puis la partie enti&fe des frequences, 
5 puis les parties fractionnaires quand les modules seront cod6s ; concernant le 
codage de la partie enti&re des frequences, seuls les 6carts entre lesdites parties 
entieres sont codes ; par aillevirs, plus le module est faible et plus la precision 
sur la partie fractionnaire est faible ; ceci afin de diminuer le debit binaire. 
Afir> d'optimiser le codage en terme de debit de la partie entiere en fonction de 
10 la statistique des ecarts de frequence, on definit un certain nombre d'ecarts 
maximal entre deux frequences. 

Le codage de la dynamique des modules (bloc 64) utilise une loi de 
HUFFMAN en fonction du nombre de plages definissant ladite dynamique et 
15 du type de signal. Dans le cas d'un signal voise, renergie du signal se situe 
dans les basses frequences ; pour les autres types de signal, renergie est 
repartie uniform6ment dans le plan frequentiel, avec une baisse vers les hautes 
frequences. 

20 Le codage du module le plus eiev6 (bloc 65) consiste k coder, suivant une loi 
de HUFFMAN, la partie entiere dudit module le plus eieve en tenant compte 
de la statistique dudit module le plus eieve. 

Le codage des modules (bloc 66) n'est realise que si le nombre de module a 
25 coder est superieur k 1, etant donn6 que dans le cas contraire, il est seul en 
etant le module le plus eieve. 

Lors de Panalyse (bloc Al), la suppression du signal inaudible (bloc 25 du 
bloc Al) eiimine les modules inferieurs au produit du module par Tattenuation 
correspondante ; ainsi un module se situe obligatoirement dans une zone du 
30 plan module/frequence dependant de la distance qui le s6pare de ses deux 
modules adjacents en fonction de r6cart de frequence desdits modules 
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adjacents. Ainsi la valeur du module est approxim6e relativement au module, 
precedent en fonction de l'ecart de frequence et de P attenuation 
correspondante qui d6pend du type de signal, de la valeur de normalisation et 
du type de compression ; ladite approximation de la valeur du module est 
5 effectu6e en reference h une 6chelle dont le pas varie suivant une loi 
logarithm! que. 

Le codage de V attenuation (bloc 67) apportee par le filtre d'entr6e des 
echantillons est effectu6, puis est suivi de la suppression de la normalisation 
10 (bloc 68) qui pennet de recalculer le module le plus 61ev6 ainsi que la 
frequence correspondante. 

Le codage des fractions fr6quentielles des frequences non harmoniques (bloc 
69) complete le codage des parties entieres desdites frequences. 
15 La precision du codage va dependre : 

• de la frequence : plus la frequence est faible, plus la precision sera 
61ev6e de maniere a ce que le rapport erreur de codage sur frequence 
soit faible, 

• du type de signal, 

20 • du type de compression, 

• de la valeur de normalisation du signal : plus Pintensite du signal est 
61ev6e, plus le codage est precis. 

Enfin, le codage du nombre d' octets de codage (bloc 70) est effectu6 k Tissue 
25 du codage des diff6rents paramdtres susmentionn6s, m6moris6s dans une 
m6moire de codage d6di6e. 



L'aboutissement de ladite phase de codage est r£f6rence par le bloc 71. 
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En reference k la figure 1 repr6sentant un organigramme simplifid du proc6de 
selon Pirivention, dans cet exemple, la phase de decodage des parametres est 
representee par le bloc CI, 

Le decodage 6tant Pinverse du codage, P exploitation des bits de codage des 
5 diff6rents parametres susmentionnes permettra de retrouver les valeurs 
d'origine des parametres, avec d'eventuelles approximations. 

En reference k la figure 1 representant un organigramme simplifie du proc6d6 
selon Pinvention, dans cet exemple, la phase de filtrage du bruit et de 
10 generation d'effets speciaux, a partir de P analyse, sans passer par la synthase 
est indiquee par le bloc D. 

Le filtrage du bruit est effectue a partir des parametres de la voix calcules dans 
Panalyse (bloc Al du bloc A), empruntant le trajet IV indique svir ledit 
15 organigramme simplifie du procede selon Pinvention. 

II s'av^re que les algorithmes conmis de Petat de Tart r^alisent une annulation 
du bruit k partir des propri6t6s statistiques du signal ; le bruit doit 6tre par 
consequent stationnaire statistiquement ; cette demarche n'autorise done pas la 
20 presence de bruit sous forme harmonique (voix, musique). 

L'objectif du filtrage du bruit est par consequent de reduire toutes sortes de 
bruit tel que : bruit ambiant de voiture, de moteur, de foule, de musique, 
d'autres voix si celles-ci sont plus faibles que celles k conserver, ainsi que les 
25 bruits de calcul de tout vocodeur (k titre d' exemple : ADPCM, GSM, G723). 

Par ailleurs, la majorite des bruits ont leur energie dans les basses frequences ; 
le fait d'utiliser le signal de T analyse prealablement filtre par le filtre d' entree 
des 6chantillons permet de diminuer d'autant le bruit tres basse frequence. 
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Le filtrage du bruit (bloc D) pour un signal voise consiste a rEaliser la somme 
pour chaque Echantillon, du signal original, du signal original dEcale de un 
« pitch » en valeur positive et du signal original decale de un « pitch » en 
valeur n6gative. Ceci n&cessite de connaitre pour chaque Echantillon, la valeur 
5 du « pitch » et de sa variation. Avantageusement les deux signaux decalEs sont 
multiplies par un meme coefficient, et le signal original non d6cal6 par un 
second coefficient ; la somme dudit premier coefficient rajoutE k lui-meme et 
dudit second coefficient est 6gale k 1, diminue de maniere a conserver un 
' niveau Equivalent du signal resultant. 

10 

Le nombre d' Echantillons espaces d'un « pitch » temporel ne se limite pas a 
trois echantillons ; plus il y a d' echantillons utilises pour le filtre de bruit, et 
plus le filtre diminue le bruit. 

Le nombre de trois echantillons est adapte au « pitch » temporel le plus eleve 
15 rencontrE dans de la voix et au retard de filtrage. Afin de garder un retard de 
filtrage fixe, plus le « pitch » temporel est faible, plus on peut utiliser 
d 5 Echantillons dEcalEs d'un « pitch » pour rEaliser le filtrage ; ce qui revient k 
garder la bande passante autour d'un harmonique, a peu prEs constante ; plus 
la fondamentale est ElevEe et plus la largeur de bande attenuee est 61evee. 

20 

Par ailleurs, le filtrage du bruit ne concerne pas les signaux sous forme 
d' impulsion; il est done nEcessaire de d6tecter la presence d'Eventuelles 
impulsions dans le signal. 

25 Le filtrage du bruit (bloc D) pour un signal non voise consiste k attEnuer ledit 
signal par un coefficient inferieure k 1. 

Dans le domaine temporel, la somme des trois signaux sus mentionnes est 
corr616e ; quant au bruit contenu dans le signal original, la somme attEnuera 
30 son niveau. 
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Ainsi, il est n6cessaire de connaitre avec exactitude la variation du « pitch », 
c'est-&-dire la valeur temporelle du « pitch », approxim6e en valevir lin6aire, 
sachant qu'elle fait intervenir un terme du second ordre ; P amelioration de la 
precision des deux susdits decalages, positif et n£gatif, est obtenue grace h 
5 Putilisation de la correlation par la distance en debut, milieu et fin de trame ; 
cette demarche a 6t6 d6crite au cours de Petape "calcul des parametres du 
signal" (bloc 1 1 du bloc Al). 

Avantageusement, le filtrage de bruit, d6crit pr6cedemment, permet de gen6rer 
10 des effets sp6ciaux ; ladite generation d' effets sp6ciaux permet d'obtenir : 

• une feminisation de la voix, en divisant la valeur temporelle du 
« pitch » par deux, pour certaines valeurs des amplitudes du signal 
original et des signaux originaux decales ; ceci multiplie 
artificiellement la frequence du « pitch » de la voix par deux en 

15 supprimant les harmoniques impaires ; 

• une voix artificielle et etrange, en divisant la valeur temporelle du 
« pitch » par deux, pour d'autres valeurs des amplitudes du signal 
original et des signaux originaux d6cal6s ; ceci permet de ne garder 
que les harmoniques impaires ; 

20 • deux voix diff6rentes, en divisant la valeur temporelle du « pitch » 

par deux, pour diflESrentes valeurs des amplitudes du signal original 
et des signaux originaux decal6s ; ceci permet d'att6nuer les 
harmoniques impaires. 

25 Enfin, une autre demarche, semblable a celle decrite pr6cedemment pennettant 
le filtrage du bruit, pourra 6tre appliqu^e, non pas pour filtrer le bruit, mais 
pour diviser par deux ou par trois la fondamentale de la voix et ce, sans 
modification du formant (enveloppe spectrale) de ladite voix. 



30 
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Le principe de ladite demarche consiste : 

• k multiplier chaque echantillon de la voix originale par un cosinus 
variant au rythme de la moitie de la fondamentale (multiplication 
par deux du nombre de frequences), ou variant au rythme du tiers de 

5 la fondamentale (multiplication par trois du nombre de frequences), 

• puis k additionner le resultat obtenu a la voix originale. 

Par ailleurs, la phase de filtrage du bruit et de generation d'effets speciaux, k 
partir de l'analyse, sans passer par la synthese, peut ne pas inclure le calcul de 
10 la variation du « pitch » ; ceci permet d'obtenir une quality auditive voisine de 
celle pr6cedemment obtenue selon le precede susmentionne ; dans ce mode 
operatoire, les fonctions definies par les blocs 11, 12, 15, 16, 17, 18, 19, 25 et 
28 sont supprimees. 

15 En reference a la figure 1 representant un organigramme simplifie du precede 
selon Finvention, dans cet exemple, la phase de generation d'effets speciaux, 
associ^e a la synthase (bloc C3) est indiquee par le bloc C2 du bloc C. 
La dite phase de generation d'effets sp6ciaux, associee a la synthase, permet 
de transformer la voix 6u la musique : 

20 • soit en modifiant selon certaines lois, les parametres decodes issus 

du bloc CI (trajetll), 

• soit en traitant directement les r6sultats de l'analyse issus du bloc 
Al (trajetni). 

25 Les parametres modifies sont : 

• le « pitch », 

• la variation du « pitch », 

• la validation du « pitch », 

• le nombre de composantes frequentielles, 
30 • les frequences, 

• les modules, 
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• les indices. 

Les frequences etant distinctes entre elles, leur transfonnation permet de 
rajeunir la voix, de la vieillir, de la feminiser ou inversement, de la transformer 
5 en une voix artificielle. Ainsi la transformation des modules autorise toute 
sorte de filtrages et permet en outre de conserver la voix naturelle en gardant 
le formant (enveloppe spectrale). 

A titre d'exemples, trois types de transformation de la voix seront d6crits ci- 
10 aprds, chacim 6tant r6ferenc6 sous une appellation qui lui est propre, k savoir : 

- la fonction "Transform" modifiant la voix de fa?on artificielle et 
permettant de cr6er im effet de chorale, 

- la fonction "Transvoice" modifiant la voix de fapon realiste, 

- la fonction "Formant" assoctee a la fonction"Transvoice". 

15 

La fonction "Transform" consiste a multiplier toutes les frequences des 
composantes fr6quentielles par un coefficient. Les modifications de la voix 
sont fonction de la valeur de ce coefficient, k savoir : 

• une valeur sup6rieure k 1 transforme la voix en voix de canard, 
20 • une valeur faiblement superieure k 1 rajeunit la voix, 

• une valeur inf&rieure k 1 rend la voix plus grave. 

En effet, ce rendu artificiel de la voix est du au fait que les modules des 
composantes fr6quentielles sont inchanges et que T enveloppe spectrale est 
25 d6fonn6e. 

Par ailleurs, en synth6tisant plusieurs fois les memes paramdtres, modifies par 
ladite fonction "Transform" avec un coefficient different, on realise un effet de 
chorale en donnant P impression que plusieurs voix sont prdsentes. 

30 La fonction "Transvoice" consiste k recr6er les modules des harmoniques k 
partir de T enveloppe spectrale, les harmoniques originaux sont abandonees 
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sachant que les frequences non harmoniques ne sont pas modifi6es ; a ce titre, 
ladite fonction "Transvoice" fait appel k la fonction "Formaht" qui determine 
le formant. 

Ainsi, la transformation de la voix est efifectu6e de fagon r6aliste car le 
5 formant est conserve ; un coefficient de multiplication des frequences 
harmoniques sup6rieure a 1 rajeunit la voix, voire la ffrminise ; 
retiproquement, un coefficient de multiplication des frequences harmoniques 
inferieure a 1 rend la voix plus grave. 

Par ailleurs, afin de conserver un niveau sonore constant, independamment de 
10 la valeur du coefficient de multiplication, les nouvelles amplitudes seront 
multipliees par le rapport de la somme des modules en entr6e de ladite 
fonction "Transvoice" k la somme des modules en sortie. 



La fonction "Formant" consiste a determiner Fenveloppe spectrale du signal 
15 frequentiel ; elle est exploitee pour garder les modules des composantes 
frequentielles constants quand les frequences sont modifi6es. 
La determination de Fenveloppe est effectuee en deux etapes, a savoir : 

• vm filtrage des modules places dans Fenveloppe, 

• une interpolation logarithmique de Fenveloppe entre deux modules 
20 d'un harmonique. 

Ladite fonction "Formant" peut etre appliqude lors du codage des modules, des 
frequences, des plages d' amplitudes et des fractions de frequences, en 
n'effectuant le dit codage que sur les parametres essentiels du formant, le 
25 « pitch » 6tant valide. Dans ce cas, lors du d6codage, les frequences et les 
modules sont recalcul£s k partir respectivement du « pitch » et de Fenveloppe 
spectrale. Ainsi le debit binaire est reduit ; neanmoins, cette demarche n'est 
applicable qu'^ la voix. 
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,Les dites fonctions "Transform" et "Transvoice", decrites prec6demment font 
intervener un coefficient de multiplication des frequences constant. Cette 
transformation peut 6tre non lineaire et permettre de rendre la voix artificielle. 

5 En effet, si ce coefficient de multiplication est fonction du rapport entre le 
nouveau « pitch » et le « pitch » r£el, la voix sera caracterisee par un « pitch » 
fixe et un formant variable ; elle sera ainsi transform6e en voix de robot 
associ6e k un effet spatial. 

10 Si ce coefficient de multiplication varie periodiquement ou aleatoirement, k 
basse frequence, la voix est vieillie associee a un effet hilarant 

Ces diff£rentes transformations de la voix, obtenues a partir d'une 
modification, constante ou variable dans le temps, des frequences, ladite 
15 modification etant effectu6e sur chacune des frequences prises s6par£ment, 
sont donn6es a titre d'exemples. 

Une derni&re solution consiste k effectuer un codage a debit fixe. Le type de 
signal est ramen£ k du signal vois6 (type 0 et 2 avec la validation du « pitch » 
20 k 1), ou a du bruit (type 1 et 2 avec la validation du « pitch » k 0). Le type 2 
etant pour la musique, il est ^limine dans ce cas, puisque ce codage ne peut 
coder que de la voix. 
Le codage k debit fixe consiste k : 

• coder le type de signal, Finformation de la presence d' impulsion, et 
25 la validation du « pitch » en codage de HUFFMAN, 

• coder Pemplacement de Fimpulsion dans la trame si on n'est pas en 
presence d'une impulsion, sinon coder les parties d'enveloppe 
temporelle en faisant appel k une table de codage repr6sentant les 
enveloppes les plus couramment rencontr£es, 

30 • coder le « pitch » en loi logarithmique sur sa valeur ou la difference 

entre le « pitch » cod6 de la trame pr6c£dente et celxii de la trame 
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courante ; & noter que le codage differentiel permet d'utiliser moins 
de bits de codage, 

• coder la variation du « pitch », n'etant pas en presence d'une 
impulsion, seulement si la valeur calcul6e dans 1' analyse est 
5 eioign6e d'un certain pourcentage de la variation du « pitch » 

calcul6e a partir des « pitchs » de la trame prdcedente et de la trame 
courante ; de meme, la variation du « pitch » n'est pas codee, si la 
valeur absolue de P6cart entre ces deux variations est inf&rieure k 
une valeur maximale, 

10 • coder le formant differentiel sur 2 bits pour les frequences basses, et 

sur 1 bit pour les autres frequences, le premier formant n'etant pas 
code en diflKrentiel. A noter que plus il y a d'echantillons de 
formant k coder, meilleure est la qualite auditive du codeur a debit 
fixe, et plus la difference de codage entre deux 6chantillons 

1 5 adj acents est faible. 

Le decodage etant 1' inverse du codage, le « pitch » fournit tous les 
harmoniques de la voix ; leurs amplitudes sont celles du formant. 
Quant aux frequences du signal non voise, on calcule des frequences espac6es 
20 entre elles par une valeur moyenne a laquelle est rajoute im ecart al6atoire ; les 
amplitudes sont celles du formant. 

Le processus de synthase, d^crit pr6c6demment, est identique a celui d6crit 
pour un d6codeur a d6bit variable. 

25 

Afin de permettre la mise en ceuvre du precede selon l'invention, un dispositif 
sera decrit ci-apres, avec reference a la figure 5. 



30 



Le dispositif, selon l'invention, comprend essentiellement : 

• un calculateur 71, de type DSP, peimettant d'effectuer le traitement 
numerique des signaux, 
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• un clavier 72 permettant de s61ectionner les menus de traitement de 
la voix, 

• une m6moire morte 73, de type EEPROM, contenant le logiciel de 
traitement de la voix, 

5 • une m6moire vive 74, de type flash ou « memory stick », contenant 

les enregistrements de la voix traitee, 

• un afficheur 75, de type LCD, associe au clavier 72, indiquant les 
diffSrents menus de traitement de la voix, 

• un codeur/d6codeur 76, de type codec, assurant les liaisons 
10 entr6e/sortie des p6riph6riques audio, 

• un micro 77, de type Slectret, 

• un haut-parleur 78 , 

• une batterie 79, 

• une liaison entree/sortie 80, pemiettant le transfert des 
15 enregistrements numeriques et les mises k jour du logiciel de 

traitement de la voix. 

Par ailleurs, le dispositif pourra comporter : 

• un connecteur t61ephonique permettant au dispositif selon 
20 l'invention de se substituer k un combine t616phonique, 

• un connectexir de tel6phonie mobile, 

• une sortie casque, permettant Pecoute des enregistrements, 

• une sortie chaine hi fi, permettant la fonction karaoke, 

• un connecteur d' alimentation externe. 

25 

D'une manidre plus precise, le dispositif pourra comporter : 

- des moyens d* analyse permettant de determiner des parametres 

repr6sentatifs dudit signal sonore, les susdits moyens d' analyse 

comprenant : 

30 • des moyens de calcul de l'enveloppe du signal, 
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• des moyens de calcul du « pitch « et de sa variation, 

• des moyens duplication au signal temporel de la variation inverse 
du «pitch», 

• des moyens de transform^ rapide de Fpurrier (TRF) sur le signal 
5 pr6traite, 

• des moyens d' extraction des composantes fr6quentielles et leurs 
amplitudes dudit signal, k partir du r6sultat de la transformee rapide 
de Fourrier, 

• des moyens d' Elimination eventuelle du bruit ambiant par filtrage 
1 0 s61ectif avant codage, 

- des moyens de synthese desdits parametres representatifs permettant de 
reconstituer ledit signal sonore, les susdits moyens de synthese 
comprenant : 

15 • des moyens de sommation des sinus dont V amplitude des 

composantes fr6quentielles varie en fonction de Penveloppe du 
signal, 

• des moyens de calcul des phases en fonction de la valeur des 
frequences et des valeurs des phases et des frequences appartenant a 

20 la trame prec6dente, 

• des moyens de superposition du bruit, 

• des moyens d' application de Penveloppe, 

- des moyens de filtrage du bruit et de generation d'eflfets speciaux, k partir 
25 de Fanalyse, sans passer par la synthese, les susdits moyens de filtrage du 

bruit et de generation d'effets speciaux comprenant : 

• des moyens de sommation du signal original, du signal original 
d6caie de un « pitch » en valeur positive et du signal original d6cal6 
de un « pitch » en valeur negative, 

30 • des moyens de division de la valeur temporelle du « pitch » par 

deux, 
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• des moyens de modification des amplitudes du signal original et des 
deux signaux decales, 

• des moyens de multiplication de chaque 6chantillon de la voix 
originale par un cosinus variant au rythme de la moitie de la 

5 fondamentale (multiplication par deux du nombre de frequences), ou 

variant au rythme du tiers de la fondamentale (multiplication par 
trois du nombre de frequences), 

• des moyens d' addition ensuite du resultat obtenu k la voix originale, 

10 - des moyens de generation d'effets speciaux associ6s k la synthase, les 
susdits moyens de generation d'effets speciaux comprenant : 

• des moyens de multiplication de toutes les frequences des 
composantes frequentielles du signal original, prises 
individuellement, par un coefficient, 

15 • des moyens de regeneration des modules des haimoniques h partir 

de l'enveloppe spectrale dudit signal original. 

Avantageusement, le dispositif pourra comporter tous les elements cit6s 
precedemment, en version professionnelle ou semi professionnelle ; certains 
20 elements, tel que Pafficheur, pourront etre simplifies en version de base. 

Ainsi, le dispositif selon Pinvention, d6crit ci-dessus, pourra exploiter le 
precede de traitement numerique differencie de la voix et de la musique, de 
filtrage du bruit et la cr6ation d'effets speciaux. 

25 

II permettra notamment de transformer la voix : 

• en une autre voix r6aliste, 

• pour un usage de type karaoke, 

• en une autre voix fiituriste, etrange, d'accompagnement. 

30 
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II permettra 6galement : 

• de supprimer le bruit ambiant et d'augmenter les capacit£s 
d'enregistrement, 

5 • de transferer les enregistrements sur disque dur d'ordinateur et de 

les re£couter a vitesse variable, 

• de r£aliser une fonction « main libre » associ6e a un radiotelephone 
mobile. 

• de g6n£rer une reponse auditive adaptee aux mal entendants. 
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Revendications 

1- Proc6d6 pour le traitement num6rique differenci6 d'un signal sonore, 
constitute dans l'intervalle d'une trame par la somme de sinus d' amplitude fixe 
5 et dont la frequence est modulee lineairement en fonction du temps, cette 
somme etant modul6e temporellement par une enveloppe, le bruit dudit signal 
sonore etant rajoute audit signal, pr6alablement k ladite somme, 
caract6ris6 en ce qu'il comprend : 

une 6tape d'analyse permettant de determiner des parametres repr6sentatifs 
1 0 dudit signal sonore, par 

• un calcul de Penveloppe du signal, 

• un calcul de la p6riode du fondamental du signal de voix (« pitch «) et de 
sa variation, 

• une application au signed temporel de la variation inverse du «pitch», 
15 • une transform^ rapide de Fourrier (TRF) sur le signal pretraitS, 

• une extraction des composantes fr£quentielles et leurs amplitudes dudit 
signal, k partir du r6sultat de la transform^ rapide de Fourrier, 

• un calcul du «pitch» et sa validation dans le domaine fr6quentiel, 

• une elimination 6ventuelle du bruit ambiant par filtrage s61ectif avant 
20 codage. 



25 



2- Proc6de selon la revendication 1, 

caract6ris6 en' ce qu'il comprend en outre une 6tape de synthese desdits 
parametres repr6sentatifs permettant de reconstituer ledit signal sonore. 

3- Proc6de selon les revendications pr6c6dentes, 

caract6ris6 en ce qu'il comprend en outre une etape de codage et de d6codage 
desdits param&res representatifs dudit signal sonore. 
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4- Proc6d6 selon les revendications pr6c6dentes, 
caracterise en ce qu'il comprend en outre une 6tape de filtrage du bruit et une 
6tape de generation d'efFets sp6ciaux, k partir de P analyse, sans passer par la 
synthese. 

5 

5» Proc6d6 selon les revendications pr6c6dentes, 
caracteris6 en ce qu'il comprend en outre une 6tape de generation d'effets 
sp6ciaux associes a la synthase. 



10 6- Proc6d6 selon la revendication 2, 

caracterise en ce que la susdite 6tape de synthese comprend : 

• une sommation des sinus dont P amplitude des composantes 
frequentielles varie en fonction de Penveloppe du signal et dont les 
frequences varient lineairement, 

15 • un calcul des phases en fonction de la valeur des frequences et des 

valeurs des phases et des frequences appartenant k la trame 
pr^cedente, 

• une superposition du bruit, 

• une application de Penveloppe, 

20 

7- Proced6 selon la revendication 4, 
caracterise en ce que la susdite 6tape de filtrage du bruit et la susdite 6tape de 
generation d'effets sp6ciaux, a partir de Panalyse, sans passer par la synthese, 
comprennent une sonune du signal original, du signal original decaie de un 
25 « pitch » en valeur positive et du signal original decaie de un « pitch » en 
valeur negative. 



30 



8- Procede selon la revendication 7, 
caracterise en ce que les susdits signaux d6caies sont multipU6s par un m6me 
coefficient, et le signal original par un second coefficient, la somme dudit 
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premier coefficient, rajoute k lui-meme, et dudit second coefficient est egale k 
1, diminu6 de manure k conserver un niveau Equivalent du signal resultant 

9- Proc6d6 selon la revendication 7, 

5 caract6rise en ce que la susdite etape de filtrage et la susdite 6tape de 
generation d'effets sp6ciaux, k partir de F analyse, sans passer par la synthase, 
comprennent : 

• une division de la valeur temporelle du « pitch » par deux, 

• une modification des amplitudes du signal original et des deux 
1 0 signaux d6cal6s. 

10- Precede selon la revendication 7, 

caracteris6 en ce que la susdite etape de filtrage et la susdite etape de 
generation d'effets speciaux, a partir de F analyse, sans passer par la synthase, 
15 comprennent : 

• une multiplication de chaque 6chantillon de la voix originale par un 
cosinus variant au rythme de la moitie de la fondamentale 
(multiplication par deux du nombre de frequences), ou variant au 
rythme du tiers de la fondamentale (multiplication par trois du 

20 nombre de frequences), 

• une addition ensuite du r6sultat obtenu k la voix originale. 

11- Precede selon la revendication 5, 

caract6ris6 en ce que la susdite etape de generation d'effets sp6ciaux associ6s k 
25 la synthase, comprend : 

• une multiplication de toutes les frequences des composantes 
frequentielles du signal original, prises individuellement, par un 
coefficient, 

• une regeneration des modules des harmoniques k partir de 
30 Fenveloppe spectrale dudit signal original. 
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12- Precede selon la revendication 1 1, 

caracteris6 en ce que le susdit coefficient de multiplication des composantes 
firequentielles est : 

• un coefficient fonction du rapport entre le nouveau « pitch » et le 
5 « pitch » reel, 

• un coefficient variant, p6riodiquement ou aleatoirement, k basse 
frequence. 

13- Dispositif, pour la mise en oeuvre du proced6 selon la revendication 
10 1, de traitement num6rique difference d'un signal sonore, constitu6 dans 

Tintervalle d'une trame par la somme de sinus d' amplitude fixe et dont la 
frequence est modulee lin^airement en fonction du temps, cette somme etant 
modulee temporellement par une enveloppe, le bruit dudit signal sonore etant 
rajoute audit signal, prealablement a ladite somme, 
15 caracteris6 en ce qu'il comprend : 

- des moyens d' analyse permettant de determiner des parametres 
repr6sentatifs dudit signal sonore, et/ou 

des moyens de synthase desdits parametres repr6sentatifs permettant de 
reconstituer ledit signal sonore, et/ou 
20 - des moyens de codage et de decodage desdits parametres representatifs 
dudit signal sonore, et/ou 

- des moyens de filtrage du bruit et de generation d'effets sp6ciaux, & partir 
de Tanalyse, sans passer par la synthese, et/ou 

- des moyens de generation d'effets speciaux associes k la synthese. 

25 

14- Dispositif selon la revendication 13, 

caracteris6 en ce que les susdits moyens d' analyse comprennent : 

• des moyens de calcul de l'enveloppe du signal, 

• des moyens de calcul du « pitch « et de sa variation, 

30 des moyens d'application au signal temporel de la variation inverse 

du«pitch», 
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• des moyens de transfomi6e rapide de Foumer (TRF) sur le signal 
pr6trait6, 

• des moyens d' extraction des composantes fr6quentielles et leurs 
amplitudes dudit signal, k partir du r6sultat de la transferase rapide 

5 de Fourrier, 

• des moyens d' elimination 6ventuelle du bruit ambiant par filtrage 
s&ectif avant codage. 

15- Dispositif selon la revendication 13, 
10 caract6rise en ce que les susdits moyens de synthase comprennent : 

• des moyens de sommation des sinus dont T amplitude des 
composantes frequentielles varie en fonction de Penveloppe du 
signal, 

• des moyens de calcul des phases en fonction de la valeur des 
15 frequences et des valeurs des phases et des frequences appartenant a 

la trame pr6c6dente, 

• des moyens de superposition du bruit, 

• des moyens d' application de Penveloppe. 

20 1 6- Dispositif selon la revendication 1 3, 

caracteris6 en ce que les susdits moyens de filtrage du bruit et de gen6ration " 
d'effets speciaux, k partir de Tanalyse, sans passer par la synthese, 
comprennent des moyens de sommation du signal original, du signal original 
d6cal6 de un « pitch » en valeur positive et du signal original decal6 de un 

25 « pitch » en valeur n6gative. 

17- Dispositif selon la revendication 1 6, 
caract6rise en ce que les susdits signaux d6cal6s sont multipli6s par un meme 
coefficient, et le signal original par un second coefficient, la somme dudit 
30 premier coefficient, rajoutS k lui-m6me, et dudit second coefficient est 6gale k 
l 9 diminu6 de marri&re k conserver un niveau Equivalent du signal resultant. 
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18- Dispositif selon la revendication 13, 
caract6ris6 en ce que les susdits moyens de filtrage et de generation d'eflfets 
speciaux, k partir de P analyse, sans passer par la synthese, comprennent : 
5 • des moyens de division de la valeur temporelle du « pitch » par 

deux, 

• des moyens de modification des amplitudes du signal original et des 
deux signaux d6caies. 

10 19- Dispositif selon la revendication 13, 

caract6ris6 en ce que les susdits moyens de filtrage et de generation d'effets 
spetiaux, k partir de l'analyse, sans passer par la synthase, comprennent : 

• des moyens de multiplication de chaque 6chantillon de la voix 
originale par un cosinus variant au rythme de la moitie de la 

I 5 fondamentale (multiplication par deux du nombre de frequences), ou 

variant au rythme du tiers de la fondamentale (multiplication par 
trois du nombre de frequences), 

• des moyens d' addition ensuite du resultat obtenu a la voix originale. 

20 20- Dispositif selon la revendication 13, 

caract6ris6 en ce que les susdits moyens de generation d'effets speciaux 
associes a la synthase, comprennent : 

• des moyens de multiplication de toutes les frequences des 
composantes frequentielles du signal original, prises 

25 individuellement, par un coefficient, 

• des moyens de regeneration des modules des harmoniques k partir 
de l'enveloppe spectrale dudit signal original. 
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21- Dispositif selon la revendication 20, 

caractdrise en ce que le susdit coefficient de multiplication des composantes 
fr6quentielles est : 

• un coefficient fonction du rapport entre le nouveau « pitch » et le 
5 « pitch » r6el, 

• un coefficient variant p&iodiquement, k basse frequence. 
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FIG. 5 
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